时政
财经
科技
虚拟货币
其他
登录
#Andrej Karpathy
关注
meng shao
1个月前
Andrej Karpathy 和 Ilya Sutskever 两位的播客,看完直观感受区别很大,不管是语气语速和表达方式这种表面感受,还是他们的观点和关注点等,虽然从我外行小白的视角,没办法参透两位大神的观点是否异曲同工 😁 另外,总感觉 Ilya 有很多更深层次的思考,可能涉及到生物、脑神经甚至伦理宗教等,都没有展开说,他有些非常深邃的思考,可能就是那种脱离 AI 行业之外对未来更深的思考吧(我自己yy的,因为我肯定不懂他的思考🤔)
#AI浪潮:重塑就业,风险暗涌?· 140 条信息
#Andrej Karpathy
#Ilya Sutskever
#AI
#深度思考
#未来
分享
评论 0
0
meng shao
1个月前
Andrej Karpathy 分享他的 AI 阅读习惯,还开源了一个阅读工具 Karpathy 现在阅读所有长文内容(博客、论文、书籍章节等)时,都会结合 LLM 进行“三轮阅读”: 1. 第一轮:自己手动阅读原文 2. 第二轮:把文本丢给 LLM,让它进行解释、总结、提炼关键点 3. 第三轮:针对自己还不清楚的地方,向 LLM 提问、对话、深入探讨 他发现,这种方式让他对材料的理解更深、更全面,远超单纯自己读一遍就结束的传统方式。目前这已经成为他使用 LLM 的最主要场景之一。 随后他提出了一个更深层的观察和预测: · 未来,写作者的心态可能会发生根本性转变:不再是“我在给另一个人类写东西”,而是“我在给 AI 智能体 写东西”。 · 原因在于,一旦智能体真正“理解”了作者想表达的核心思想,它就可以根据不同读者的背景、水平和需求,进行个性化改写、解释和传递,从而让知识传播效率更高、覆盖面更广。 他还开源了一个极简工具 reader3,专门用来配合 LLM 阅读 EPUB 电子书: · 支持从 Project Gutenberg 等地方下载免费经典书籍 · 按章节加载,便于把当前章节文本直接复制粘贴给任意 LLM
#Andrej Karpathy
#AI 阅读习惯
#LLM辅助阅读
#reader3
#知识传播效率
分享
评论 0
0
宝玉
1个月前
一方面我不喜欢 Andrej Karpathy 总是发明新的概念,一方面又不得不承认他确实很多想法是很有价值的。 比如这里对 Software 1.0/2.0 的定义就挺好的: 1). 软件1.0时代,容易自动化的是你能明确告诉计算机怎么做的事情。 2). 软件2.0时代,容易自动化的是你能自动验证结果好坏的事情。 那这里的自动化都什么意思呢? 1. 软件1.0:靠指定规则(Specify Rule)自动化 过去的几十年,我们用的所有传统软件(比如Excel、Word、会计系统),都是“软件1.0”。 它的核心逻辑是“指定”(Specify)。 你必须像个事无巨细的监工,把每一个规则都用代码写得清清楚楚。比如做个会计软件,你必须告诉它: “如果A栏的数字大于B栏,那么C栏就显示红色。”“月末,把所有D栏的数字加起来,放到Z栏。” 软件1.0擅长什么? 自动化那些规则固定、逻辑清晰的任务。 软件1.0解决的是什么问题呢? 是人类的“机械性重复劳动”。比如打字员、记账员、算账员。只要一个任务的全部流程能被清晰描述出来,软件1.0就能接管它。 2. 软件2.0:靠指定目标(Specify Objective)自动化 现在,AI 来了,升级到了软件2.0。 它的逻辑完全变了。我们不再是指定规则,而是设定目标。 我们不再像监工一样告诉AI每一步怎么做,而是像个教练,只告诉它验收的标准是什么。 比如训练AI下棋。我们不告诉它“当对方出这一招,你就必须走那一步”。我们只给它一个目标:“想办法赢棋”。 然后,AI 就开始自己搜索那个能赢棋的步骤。它通过海量的自我对弈(也就是梯度下降)来寻找最佳策略。 这就是 AK 的核心观点:软件1.0是我们手动写程序,软件2.0是AI自动搜索生成程序。 3. 软件 1.0 时代看“可指定性”(Specifiability),2.0 时代看“可验证性”(Verifiability)。 如果说软件 1.0 自动化任务的标准是我们能不能指定清晰的规则,比如说你要写个自动抓取的爬虫,只要指定清晰饿抓取规则和解析规则就可以了。 那么软件 2.0 自动化任务的标准则是结果是不是能自动被验证。 “可验证性”就是AI能不能在一个任务上进行高效的“刻意练习”。 AK 给出了“可验证”的三个关键条件: 1). 可重置 (Resettable) AI必须能够无限次地重新开始尝试。比如下棋,这局输了,没关系,棋盘一清,马上开下一局。 2). 高效率 (Efficient) AI的练习速度必须远超人类。它可以在一小时内“看”完人类一辈子都看不完的视频,一天内下几百万盘棋。 3). 可奖励 (Rewardable) 这是最关键的一点。必须有一个自动化的、即时的、没有争议的奖惩机制。 自动化至关重要。如果AI每次做完一件事,都需要一个人类专家来看半天,然后给个模棱两可的评价(比如“嗯,这个创意还行”),那AI就没法高效学习。 像在编程、数学领域就很容易符合上面的三个条件,但是像写作这种非标准化的就很难验证。 但对于软件来说,稍微复杂一点的软件系统,其实很难达到可验证的标准。 比如说我在实现 UI 时,会尝试把 UI 设计稿扔给 AI,然后给 AI 一个截图工具,让它反复截图对比设计稿,然后找出差异优化,但是以目前的 AI 能力,还不足以修复这些差异,所以无论你运行多久,也不会真的得到一个理想的结果。 这可能就是我不太喜欢 AK 发明的这些新概念的原因,总是提出一个个概念,但是并没有解决多少问题。
#软件1.0/2.0
#自动化
#可验证性
#AI
#Andrej Karpathy
分享
评论 0
0
宝玉
2个月前
AI 大神Andrej Karpathy 对 DeepSeek 那篇 DeepSeek-OCR 的论文评价很高,你可能以为他会说:“哇,这个OCR模型真厉害,识别率又提升了!” 但他没有。 相反,他几乎是挥了挥手说:“它是个不错的OCR模型,但这不重要。” 真正让他兴奋的,是这篇论文引出的一个更具颠覆性的想法:我们是不是从一开始就喂错“语料”给AI了? Karpathy的核心观点是:也许,大型语言模型(LLM)的输入端,根本就不应该是“文本”(Text),而应该永远是“像素”(Pixels)。 这个想法听起来有点绕。我们明明有纯文本,为什么非要先把它“渲染”成一张图片,再喂给AI去看呢? Karpathy给出的理由是这样的: 1. 首先,这是个效率问题。 我们现在用“文本”喂AI,是通过一个叫“Tokenizer”(分词器)的东西,把句子切成一个个“词元”(Token)。比如“Hello, world!”可能被切成 ["Hello", ",", " world", "!"]。 问题是,这种方式可能很“浪费”。 而DeepSeek-OCR这篇论文无意中提供了一个佐证:它证明了,AI可以只用100个“视觉词元”(Vision Tokens),就高精度地“解压缩”出包含1000个“文本词元”的原文内容。 这就像,你给AI的不是一长串啰嗦的文字,而是一小块高密度的“信息压缩饼干”(图片)。AI“吃”下去(处理)的上下文窗口更短,效率自然更高。 2. 信息更“保真”,不再丢失细节 想象一下,你让AI帮你阅读一个网页。 现在的“文本”输入方式,就像是你通过电话把网页内容念给AI听。所有加粗、颜色、字体大小、排版布局……这些视觉信息全都丢失了。 而“像素”输入方式,就像是你直接截了一张图发给AI。 哪个信息更全?不言而喻。 Karpathy认为,像素是一个“信息流更广”的输入方式。它不仅能处理纯文本,还能自然地理解文本的样式(粗体、颜色),甚至页面上任意的图表和图像。 3. 绕开AI 分词器 前面两点只是铺垫,Karpathy真正的“怨念”在于:他想彻底干掉“分词器”(Tokenizer)。 他直言不讳地“炮轰”: > “我必须再说一次我有多讨厌分词器。分词器是丑陋的、分离的、非端到端的。它‘进口’了所有Unicode编码、字节编码的丑陋之处,继承了大量历史包袱,还带来了安全/越狱风险……它必须被淘汰。” 为什么他这么恨分词器? 分词器就像是AI的“嘴替”和“眼替”,它强行介入在“原始文本”和“AI大脑”之间。这个“中间商”不仅笨拙,而且会扭曲信息。 Karpathy举了个绝妙的例子:一个笑脸表情符号“😀”。 - 通过“分词器”,AI看到的不是一张“笑脸”,而是一个奇特的内部代码,比如 [tok482]。AI无法利用它在看图时学到的关于“人脸”和“微笑”的知识(迁移学习)来理解这个符号。 - 但如果输入的是一张包含“😀”的图片,AI的“视觉”部分会立刻认出:哦,这是一张微笑的脸。 哪个更符合直觉?哪个更智能? 像素输入,让AI得以“眼见为实”。 4. 重新定义AI的“输入”与“输出” Karpathy的设想是,未来的AI模型,其“输入端”(用户提问)应该只接收图像(像素),而“输出端”(AI回答)则可以保持为文本。 为什么?因为“看懂一张图”(视觉到文本)的任务,远比“画出一张逼真的图”(文本到视觉)要容易得多,也实用得多。 这种“输入用眼(像素),输出用嘴(文本)”的架构,也天然契合了AI处理信息的两种模式: - 输入(Encoding):像人一样,一口气看完整个页面(图片),全盘理解(即双向注意力)。 - 输出(Decoding):像人一样,一个词一个词地往外说(即自回归)。 所以,DeepSeek-OCR这篇论文的真正价值,不在于它提供了一个多好的OCR工具,而在于它充当了一次“概念验证”(Proof-of-Concept)。 它用实验数据证明了:用“看图”的方式来“读书”,是完全可行的,而且可能效率更高。 这不仅仅是“文本到文本”(Text-to-Text)任务变成了“视觉到文本”(Vision-to-Text)任务,它暗示了一个更根本的转变——AI的主要信息入口,正在从“语言”转向“视觉”。 难怪 Karpathy 最后会说,他现在“手很痒”,很想去搞一个“纯图像输入”的聊天机器人了。这个小小的OCR研究,可能真的撬动了一个大大的未来。
#AI
#Andrej Karpathy
#DeepSeek-OCR
#像素输入
#分词器
分享
评论 0
0
dontbesilent
2个月前
考虑到 Andrej Karpathy 在国内的知名度,这个课估计连 300 都卖不掉 国内的真实情况是,一人 29800 的线下 AI 培训,仅仅是教学豆包用户如何在 claude 镜像站上,做出人生中的第一个智能体 而这个课程之所以能收费 29800,就是因为顾客都是傻子,他们看啥课程都看不懂(Andrej Karpathy 就更别提了) 29800 这个傻子培训班,是市面上为数不多的能让他们真正听懂、学会的
#Andrej Karpathy
#AI培训
#智商税
#Claude镜像站
#割韭菜
分享
评论 0
0
铁锤人
2个月前
你不好奇改变世界ChatGPT的神秘原理吗? Andrej Karpathy- 特斯拉 AI 负责人&顶级 AI 网红 推出 ChatGPT 的通俗易懂的免费短课程, 这个课要在国内不得卖 3w 一个人😂?
前特斯拉AI总监推出100美元ChatGPT克隆项目引发热议· 5 条信息
#ChatGPT
#Andrej Karpathy
#AI
#特斯拉
#免费课程
分享
评论 0
0
AI进化论-花生
2个月前
Andrej Karpathy提出了一个很激进的想法:所有LLM的输入都应该是图像,包括纯文本。 什么意思? 传统的大语言模型:文本 → tokenizer → LLM → 输出 Andrej的vision:文本 → 渲染成图片 → LLM → 输出 即使你要输入的就是纯文本,也先把它渲染成图片,再喂给模型。 为什么这么做? 他给了4个理由: 1. 信息压缩更高效 这正是DeepSeek-OCR证明的。一页文档,传统方式可能需要2000个text tokens,用vision tokens只要64个。压缩率30倍。 文本tokens很浪费,图像tokens更密集。 2. 更通用 Text tokens只能表达文字。但现实世界的信息不只是文字: - 粗体、斜体 - 彩色文字 - 表格、图表 - 任意图像 全部渲染成图像输入,模型天然就能处理这些。 3. 可以用双向注意力 这是技术细节。传统的text-to-text是自回归的(从左到右)。图像输入可以用双向注意力,看到全局信息,更强大。 4. 删除tokenizer(重点!) Andrej很讨厌tokenizer。 他的吐槽: - Tokenizer是一个丑陋的、独立的、非端到端的阶段 - 它继承了Unicode、字节编码的所有历史包袱 - 有安全风险(如continuation bytes攻击) - 两个看起来一样的字符,在tokenizer眼里可能完全不同 - 😊这个emoji在tokenizer里只是一个奇怪的token,不是一张真正的笑脸图片 他希望tokenizer消失。 他的vision是什么 - 输入:全部是图像(即使原本是文本) - 输出:还是文本(因为输出像素不现实) OCR只是vision→text任务之一。很多text→text任务都可以变成vision→text。 我的理解 Andrej这个观点很激进,但确实有道理。 从信息论角度,图像确实比文本更高效。DeepSeek-OCR证明了这一点:64个vision tokens就能表达2000个文本tokens的信息。 从通用性角度,图像输入天然支持各种格式(粗体、颜色、图表),不需要tokenizer这个中间层。 但问题是: 1. 计算成本:处理vision tokens比text tokens贵。虽然token数量少了,但每个vision token的计算量更大。 2. 训练数据:现有的大部分训练数据都是纯文本。要全部渲染成图像,成本很高。 3. 输出问题:他也承认,输出像素不现实。所以只能是图像输入→文本输出的混合模式。 但长远看,这个方向可能是对的。 特别是考虑到: - 人类的输入本来就是多模态的(文字、图片、视频) - Tokenizer确实有很多问题(安全、Unicode、历史包袱) - 未来的AI应该能直接理解像素,而不是把一切都变成token DeepSeek-OCR可能只是开始。它证明了"上下文光学压缩"是可行的。 Andrej看到的是更远的未来:一个没有tokenizer的世界,所有输入都是图像,所有输出都是文本。 这会不会成为现实?不知道。 但至少,这个方向值得探索。
智谱直播发布全球最佳视觉模型GLM-4.5V,挑战AI视觉领域极限· 21 条信息
#LLM
#图像输入
#tokenizer
#Andrej Karpathy
#多模态
分享
评论 0
0
勃勃OC
2个月前
Andrej Karpathy认为,我们距离AGI的实现仍有十年之遥,当前过度乐观的预测多是为了融资,强化学习虽然优于此前的技术,但本身效率低下且充满缺陷。 他预测 AGI 不会带来经济的爆炸式增长,而是会平滑地融入过去两个半世纪以来约 2% 的 GDP 增长曲线中,成为自动化浪潮的延续。
#AGI
#Andrej Karpathy
#人工智能
#经济影响
#技术预测
分享
评论 0
0
Jiayuan Zhang
2个月前
Andrej Karpathy 高效的一天是什么样的
#Andrej Karpathy
#高效工作
#时间管理
#个人效率
#经验分享
分享
评论 0
0
GitHubDaily
2个月前
在以前想训练一个专属 ChatGPT,即便是小模型也动辄几百万美元,还要复杂的技术栈,让众人望而却步。 现在通过 nanochat 这个开源项目,只需 100 美元就能训练出一个完整的 ChatGPT,作者正是前特斯拉 AI 总监 Andrej Karpathy。 整个代码库只有 8000 多行、45 个文件,却实现了从分词、预训练、微调到推理的完整流程。 GitHub: 同时支持多种评估指标,可自动生成模型性能报告,并内置 ChatGPT 风格的 Web 聊天界面,模型训练完即可对话。 在 8XH100 节点上一键运行脚本,仅需 4 小时就能完成训练,得到一个能对话、写诗写故事、回答简单问题的模型。 如果想进一步提升性能,经过 12 小时训练,它的 CORE 指标就能超越 GPT-2,花费大概在 300 美元。 对于想深入理解 LLM 训练流程的 AI 开发者来说,这是一个不可多得的学习项目,短短两天便斩获 14000+ GitHub Star。
前特斯拉AI总监推出100美元ChatGPT克隆项目引发热议· 5 条信息
#nanochat
#Andrej Karpathy
#ChatGPT训练
#低成本AI
#开源项目
分享
评论 0
0
Barret李靖
2个月前
Andrej Karpathy 关于 Software 3.0 的演讲,看了好几遍,
#Andrej Karpathy
#Software 3.0
#演讲
#人工智能
#技术趋势
分享
评论 0
0
meng shao
2个月前
[YC AI Startup School 经典重温] Andrej Karpathy:软件,再次,变革! 假期做什么?除了带孩子,当然是重温经典视频了,AK 在 三个月前 YC AI Startup School 上对「软件在 AI 时代的变化」的演讲必须值得反复观看学习。作为 Stanford、OpenAI 和 Tesla 的资深研究者,他将当前 AI 浪潮比作软件发展的第三个重大跃迁——从传统编程到神经网络,再到用自然语言“编程” LLM。这场演讲不只是技术展望,更像是一份给新入行者的路线图:软件正从静态指令转向动态智能,机会与挑战并存。 软件的“三重奏”:从 1.0 到 3.0 1.0 - Karpathy 用一个巧妙的框架回顾软件历史:70年来,软件基本停留在“1.0”阶段 —— 人类用 Python 或 C++ 等语言编写精确指令,驱动计算机执行任务,就像 GitHub 上那张“软件地图”一样,密密麻麻的全是代码仓库。 2.0 - 但最近几年,一切加速变迁。首先是“2.0”:神经网络的权重取代了部分代码。你不再手写算法,而是通过数据训练优化器,让模型“自学”图像识别或决策树。Hugging Face 就像 2.0 的 GitHub,模型参数如 Flux 图像生成器,成为可迭代的“代码提交”。 3.0 - 如今,我们进入“3.0”时代:LLM 如 ChatGPT 让神经网络可编程——用英语提示作为“程序”。例如,情感分析不再需要 Python 脚本或专用模型,只需几行提示如“分析这条评论的语气”,模型就输出结果。这不是小修小补,而是范式颠覆:编程从机器语言转向人类母语,门槛瞬间拉低。Karpathy 的推文「The hottest new programming language is English」因此爆火,成为他的置顶帖。 LLM:公用事业、芯片厂,还是操作系统? LLM 不是简单工具,而是全新“计算机”。Karpathy 借用历史类比,剖析其生态: · 像公用事业:OpenAI 等实验室砸重金训练模型(资本支出),然后通过 API 按 token 计费提供服务(运营支出)。需求如低延迟、高可用性,与电网相似。OpenRouter 像变电站开关,让你无缝切换模型。当顶级 LLM 宕机时,整个世界仿佛“智力停电”——这已不是科幻。 · 像芯片厂:训练成本高企,技术树(如 NVIDIA GPU vs. Google TPU)高度保密,纯软件与全栈(自建硬件)模式并存。但软件的易复制性让防御壁垒更薄。 · 最贴切的:像操作系统:LLM 不是商品水电,而是复杂生态。上下文窗口如内存,提示如 CPU 指令,工具调用如外设。闭源模型(如 GPT 系列)对标 Windows,开源 Llama 生态似 Linux。我们正重演1960年代计算史:云端时间共享、批量处理为主,本地个人计算尚未普及(尽管 Mac Mini 已显露端倪)。聊天界面像终端,GUI(如 Cursor IDE)才刚起步。 独特之处在于“技术扩散倒置”:以往新技术(如电力、GPS)先服务政府企业,再渗入消费;LLM 反之,从“怎么煮鸡蛋”起步,普通人先拥抱,企业政府却慢半拍。这让 LLM 从诞生之日起,就成了亿万人的“即时下载”软件。 LLM 的“人格”:超人与缺陷并存 Karpathy 将 LLM 形容为“people spirits”——人类精神的随机模拟,由自回归 Transformer 驱动,训练于海量文本,涌现出类人心理。优势显而易见:百科全书式记忆(如 Rain Man 里的记忆天才),能轻松忆起 SHA 哈希或历史细节。 但缺陷同样突出:幻觉(编造事实)、锯齿智能(9.11 > 9.9的荒谬错误)、逆行性遗忘(上下文窗口如工作记忆,每轮重置,无长期学习)。安全隐患如提示注入,让它们易受骗。Karpathy 推荐看《记忆碎片》和《50次初恋》,生动描绘这种“每日重启”的困境。关键是:我们必须直面这些“认知疤痕”,设计系统绕过弱点、放大强项。 机会:部分自治与人类- AI 共舞 演讲转向实践,Karpathy 强调“部分自治”应用:LLM 不是全能智能体,而是可控助手。拿 Cursor 举例,它融合传统界面与 LLM:自动管理上下文、多模型协作、应用专属 GUI,还有“自治滑块”——从单行补全到全仓库重构,你决定让渡多少控制。 Perplexity 搜索工具类似:从快速查询到深度研究,渐进自治。核心是加速“生成-验证”循环:GUI 利用人类视觉优势(阅读文本费力,看图直达大脑),而非让 LLM 狂飙万行代码(10,000 行 diff?人类瓶颈依旧)。他警告:别被“2025 is Agent Year” 泡沫冲昏头,自治如开车,需人类监督。Tesla Autopilot 的教训历历在目:2013 年 Waymo 完美试驾后,12年过去仍未全解;Iron Man 盔甲更妙——既是增强(Tony Stark 亲控),又是智能体(自主飞行),滑块一推即变。 教育是另一个切入点:别直奔 ChatGPT “教我物理”,AI 易迷路。Karpathy 设想双 App 系统——教师端生成课程(可审计大纲),学生端交付(循序渐进),用中间产物“拴住” AI。 Vibe Coding:人人皆程序员 LLM 的英语接口民主化编程:无需5-10年苦学,任何人可 “vibe coding”——凭直觉、提示迭代,快速原型。Karpathy 自嘲建 iOS App(Swift 零基础,一天搞定)和 MenuGen(菜单拍照生图,menu. app 试用免费$5信用)。但痛点暴露:核心逻辑易,DevOps 繁琐——浏览器点来点去,何不让智能体代劳? 为智能体而建:基础设施重塑 LLM 如新物种:数字信息的“消费者与操纵者”,介于人类 GUI 与程序 API 间。Karpathy 呼吁适应:lm.txt 文件直述网站意图(胜过解析 HTML);文档转向 Markdown + Curl 命令(Vercel/Stripe 先行,取代“点击此”);Anthropic 的模型上下文协议标准化交互。工具如 GitIngest 或 DeepWiki 已现雏形。未来 LLM 或能“点击浏览”,但 “ halfway meet” ——半路相迎,能省时省力。 结语:LLM 的 1960 年代,我们来筑基 Karpathy 以乐观收尾:软件需重写,专业码农与 vibe coder 共舞;LLM 如 1960s OS,公用+ fab + OS 三合一,却已普惠亿人。这是“疯狂时刻”——别畏惧缺陷,建盔甲而非机器人,滑自治杆从左(增强)向右(智能体)推移。引用其博客,软件3.0不止工具革命,更是新计算机的诞生。入行者,正逢其时:与 Karpathy 一起,编程未来。
#LLM
#AI
#Andrej Karpathy
#软件变革
#编程
分享
评论 0
0
池建强
3个月前
我这半年看过最好的 Vibe Coding 技巧 上周 OpenAI 的创始成员 Andrej Karpathy 在 X 上发了一条长长的推文,继续阐述自己在 Vibe Coding 方面的实践。 这次他开门见山的表示,不要幻想有一个万能的 AI 工具能解决所有编程问题,更可行的做法是建立一个三层结构,让不同的工具在不同场景各司其职,像接力赛一样完成开发任务。 1 在 Karpathy 的日常开发中,大约四分之三的时间最依赖的依然是 Cursor 的自动补全。这里面有一个细节很有意思:Karpathy 并不是依赖自然语言提示去驱动 AI 写代码,而是更习惯在代码里写注释、写片段,用“演示”的方式告诉模型你想要什么。这种方式带宽更高、意图更明确,也避免了上下文缺失造成的偏差。不过他也坦言,有时候 Cursor 太“热情”,会补全一大段并不需要的内容,打断思路。所以他会频繁地开关这个功能,就像和一个“话痨搭档”保持距离。 2 当遇到更大块的功能需求,或者不太熟悉的领域,Karpathy 就会把舞台交给 Claude Code 或 Codex。这类工具更适合快速生成一大段可用的代码实现,尤其是在写 Rust、SQL 这样的语言时,可以立刻把复杂的逻辑搭出来,调试和可视化也能很快跑通。这次他提到一个新词——“后代码稀缺时代”。在这个时代,生成和删除代码都变得轻而易举,代码从来不再是稀缺资源,实验和探索的成本被大幅降低。你想尝试一个新思路?直接让 AI 写一版,跑不通就删掉,重新来过。 不过,AI 写出来的代码质量往往“不够优雅”。Karpathy 给的例子很具体:喜欢堆砌复杂的抽象、滥用 try/catch、写得又长又冗余、缺乏工程品味。这种时候,他需要手动清理,像给新人代码做 code review 一样,把那些不符合自己风格的部分剔除掉。更有意思的是,他还尝试让 Claude 在写代码的同时顺便“上课”——解释为什么这么写,或者帮忙做超参数调优,但这根本不起作用——它真的想写代码,而不是解释任何东西。这从侧面也说明,AI 现在很擅长写东西,但讲解和教学还远没到位。 3 当自动补全和 Claude 都不管用的时候,Karpathy 的“终极武器”是 GPT-5 Pro。他的做法很简单:把一整个疑难问题丢进去,让模型“沉思十分钟”,然后再看答案。很多时候,GPT-5 Pro 能给出人工难以发现的 bug 线索,或者在抽象优化和文献综述中提供独到见解。换句话说,这是他的“救火队长”。 这种三层结构的组合,让 Karpathy 的工作流更像一套生态。轻量需求靠自动补全解决,大规模生成交给 Claude 或 Codex,难题交给 GPT-5 Pro。相比依赖单一工具的思路,这更接近真实的开发场景,也更符合 AI 发展的现状。 在这条推文里,他还谈到“后代码稀缺时代”的焦虑。代码不再稀缺,但人的精力依旧有限。工具更新太快,总让人担心自己是不是落伍了,会不会错过了最前沿的可能性。他把这种状态称为“周日胡思乱想”。 这正是当下许多开发者共同的心态。我们既兴奋于生产力的突飞猛进,又害怕自己无法驾驭这匹充满野性的骏马。 对普通开发者和使用 Vibe Coding 的普通用户来说,这里面有几个启示: 首先,要放弃寻找完美工具的幻想,建立自己的工具组合。不同的任务难度需要不同的 AI,像调动一个虚拟团队一样,谁擅长什么就用谁。 其次,要学会用“代码里的意图”而不是“自然语言的空话”去驱动模型,把注释和片段当作沟通语言,这样效率更高。 最后也不要忽视清理的过程。AI 生成的东西往往像半成品,需要你用工程师的直觉和审美去打磨。 写到这儿我想起一句老话:工欲善其事,必先利其器。只是到了今天,器不再是一把锤子、一个 IDE,而是多个快速迭代的 AI 工具。它们不再是静止的工具,而更像一群性格迥异的搭档。我们需要学会和它们合作,学会在噪音里保持判断,学会在洪流中找到自己的节奏。
AI编程工具激战:Claude Code、Gemini Cli崛起· 1256 条信息
#Vibe Coding
#AI编程工具
#Andrej Karpathy
#代码生成与优化
#后代码稀缺时代
分享
评论 0
0
howie.serious
4个月前
andrej karpathy 提出了 vibe coding 这个概念,但是他并没有说不愿意 vibe 的软件工程师马上就要完蛋。 同理,我们讨论 vibe writing,也不会说不愿意 vibe 的传统写作者马上就要完蛋。 技术/工具层面的讨论,目的是思想碰撞,是交流,追求的是真理、真相。 但媒体层面的设置议题(xx太牛逼,yy要完蛋),完全是另一回事,甚至可能只是一种流量技巧。 屡试不爽,没有风险,争议越大越成功。
#Vibe Coding
#技术讨论
#媒体议题
#流量技巧
#Andrej Karpathy
分享
评论 0
0
howie.serious
4个月前
愿你的 regularizer 足够强, 以防你被 RLHF 训练成 xxx🤣 (xxx 可替换为各种被外部反馈强化扭曲异化的人与现象,例如“讨好型人格”,例如不说人话故弄玄虚或每天炸裂追求流量无下限的自媒体…) --- 人肉做翻译,确实有趣。 andrej karpathy 的这句话,过了这么久了,也还是觉得很难翻译。 你会怎么翻译?怎么费曼这个 idea?
#RLHF
#翻译
#Andrej Karpathy
#费曼
#自媒体
分享
评论 0
0
OōEli.eth
4个月前
Andrej Karpathy的三步学习法,快速成为某个领域的专家: 1.反复承担具体项目,并深入完成它们,在过程中按需学习 (不需要完整掌握知识体系); 2.用自己的话教授或总结你学到的一切; 3.只与过去的自己比较,不要与他人比较。 注:Andrej Karpathy 博士毕业于斯坦福大学,师从李飞飞,是 OpenAI 的创始成员,Vibe coding创始人。
#Andrej Karpathy
#快速学习
#项目实践
#知识总结
#自我提升
分享
评论 0
0
图拉鼎
4个月前
刚刚路过小镇会客厅,有人在投屏学习 Andrej Karpathy。我也收藏好久了但还没开始学习…
#小镇会客厅
#Andrej Karpathy
#学习
#编程
#围观
分享
评论 0
0
nicekate
5个月前
NotebookLM 的视频生成功能让我有付费冲动:整体质量出色。 我用《Andrej Karpathy: Software Is Changing (Again)》做了测试,除了一处音画不同步、音频被截断外,其余片段的同步都很到位。 它的幻灯片页设计也令人眼前一亮——简约但不简单;看多了 Manus 一类的页面,再看这种清新风格格外舒服。 字幕是我加的
AI视频井喷:Midjourney领跑,多模态混战· 337 条信息
#NotebookLM
#视频生成
#Andrej Karpathy
#软件变革
#用户体验积极
分享
评论 0
0
howie.serious
6个月前
andrej karpathy的每一个知识视频,都是纯金的。值得看个5678遍。 我刚才用40分钟时间完整看了一遍,还差4567遍🤣(包括但不限于:读文稿、相关讨论、和chatgpt探讨、笔记、推特和文章分享……) 现在,ai总结的“干货”\浓缩\精华,过快、过多、过于泛滥(对于平庸的内容,ai总结是必要且有益的); 但是,对于“纯金内容”,那就得采用“5678遍学习法”:不求多快好深,但求深入理解、主动思考、走完学习闭环,对思维和行动有实际助益。 把这个视频加入待看清单吧,哈哈
#知识视频
#Andrej Karpathy
#AI总结
#学习方法
#内容精华
分享
评论 0
0
karminski-牙医
8个月前
斯坦福发了个新的 Transformer 课程,这个课程邀请到了 Andrej Karpathy, Geoffrey Hinton, Jim Fan, Ashish Vaswani 等大佬,可以免费在线观看 地址:
#斯坦福
#Transformer课程
#Andrej Karpathy
#Geoffrey Hinton
#Jim Fan
#Ashish Vaswani
#免费视频
分享
评论 0
0
宝玉
10个月前
深度解析ChatGPT与DeepSeek R1:强化学习如何让大模型学会“思考”? Andrej Karpathy 前几天发的“深度解析像 ChatGPT 的大语言模型“,实在是太长了点,我自己写的翻译软件一运行就崩溃,还要花点时间修复一下(很遗憾 AI 还搞不定),先挑了其中一节讲 DeepSeek R1 的翻译了一下,强化学习如何让大模型学会“思考”。 像 GPT-4o 这种属于传统的预训练和监督微调(SFT)模型,而 o1,DeepSeek R1 这种则属于强化学习(RL)训练模型,能让模型自发地进行更复杂、更具创造力的推理。模型在不断迭代中学会自我回溯、多角度思考,输出更完整的解题过程。 Andrej 对 DeepSeek R1 评价不错,虽然 OpenAI 是首先实现了 RLFT,但DeepSeek R1更公开透明,带来可复现的研究细节,权重可下载。 他也给了日常模型选择上的建议,如果你要解决高难度数学或编程问题,像 R1 这样的“思考型模型”更具优势,但相应的计算与时间成本更长,一些知识性或简单的咨询问题用 GPT-4o 这样的监督微调(SFT)模型就足够了。
#ChatGPT
#DeepSeekR1
#强化学习
#大模型
#Andrej Karpathy
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞